========================================================
## [1] 4898 12
预览各个变量
## 'data.frame': 4898 obs. of 12 variables:
## $ fixed.acidity : num 7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
## $ volatile.acidity : num 0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
## $ citric.acid : num 0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
## $ residual.sugar : num 20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
## $ chlorides : num 0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
## $ free.sulfur.dioxide : num 45 14 30 47 47 30 30 45 14 28 ...
## $ total.sulfur.dioxide: num 170 132 97 186 186 97 136 170 132 129 ...
## $ density : num 1.001 0.994 0.995 0.996 0.996 ...
## $ pH : num 3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
## $ sulphates : num 0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
## $ alcohol : num 8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
## $ quality : int 6 6 6 6 6 6 6 6 6 6 ...
查看各个变量的部分描述性统计结果。
## fixed.acidity volatile.acidity citric.acid residual.sugar
## Min. : 3.800 Min. :0.0800 Min. :0.0000 Min. : 0.600
## 1st Qu.: 6.300 1st Qu.:0.2100 1st Qu.:0.2700 1st Qu.: 1.700
## Median : 6.800 Median :0.2600 Median :0.3200 Median : 5.200
## Mean : 6.855 Mean :0.2782 Mean :0.3342 Mean : 6.391
## 3rd Qu.: 7.300 3rd Qu.:0.3200 3rd Qu.:0.3900 3rd Qu.: 9.900
## Max. :14.200 Max. :1.1000 Max. :1.6600 Max. :65.800
## chlorides free.sulfur.dioxide total.sulfur.dioxide
## Min. :0.00900 Min. : 2.00 Min. : 9.0
## 1st Qu.:0.03600 1st Qu.: 23.00 1st Qu.:108.0
## Median :0.04300 Median : 34.00 Median :134.0
## Mean :0.04577 Mean : 35.31 Mean :138.4
## 3rd Qu.:0.05000 3rd Qu.: 46.00 3rd Qu.:167.0
## Max. :0.34600 Max. :289.00 Max. :440.0
## density pH sulphates alcohol
## Min. :0.9871 Min. :2.720 Min. :0.2200 Min. : 8.00
## 1st Qu.:0.9917 1st Qu.:3.090 1st Qu.:0.4100 1st Qu.: 9.50
## Median :0.9937 Median :3.180 Median :0.4700 Median :10.40
## Mean :0.9940 Mean :3.188 Mean :0.4898 Mean :10.51
## 3rd Qu.:0.9961 3rd Qu.:3.280 3rd Qu.:0.5500 3rd Qu.:11.40
## Max. :1.0390 Max. :3.820 Max. :1.0800 Max. :14.20
## quality
## Min. :3.000
## 1st Qu.:5.000
## Median :6.000
## Mean :5.878
## 3rd Qu.:6.000
## Max. :9.000
查看数据前10行。
## fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
## 1 7.0 0.27 0.36 20.7 0.045
## 2 6.3 0.30 0.34 1.6 0.049
## 3 8.1 0.28 0.40 6.9 0.050
## 4 7.2 0.23 0.32 8.5 0.058
## 5 7.2 0.23 0.32 8.5 0.058
## 6 8.1 0.28 0.40 6.9 0.050
## 7 6.2 0.32 0.16 7.0 0.045
## 8 7.0 0.27 0.36 20.7 0.045
## 9 6.3 0.30 0.34 1.6 0.049
## 10 8.1 0.22 0.43 1.5 0.044
## free.sulfur.dioxide total.sulfur.dioxide density pH sulphates alcohol
## 1 45 170 1.0010 3.00 0.45 8.8
## 2 14 132 0.9940 3.30 0.49 9.5
## 3 30 97 0.9951 3.26 0.44 10.1
## 4 47 186 0.9956 3.19 0.40 9.9
## 5 47 186 0.9956 3.19 0.40 9.9
## 6 30 97 0.9951 3.26 0.44 10.1
## 7 30 136 0.9949 3.18 0.47 9.6
## 8 45 170 1.0010 3.00 0.45 8.8
## 9 14 132 0.9940 3.30 0.49 9.5
## 10 28 129 0.9938 3.22 0.45 11.0
## quality
## 1 6
## 2 6
## 3 6
## 4 6
## 5 6
## 6 6
## 7 6
## 8 6
## 9 6
## 10 6
本数据集(白葡萄酒质量),共有12个变量,共有4898个观测值
为了了解fixed.acidity的分布情况,作出fixed.acidity 的直方图来观察。
查看fixed.acidity 的数据统计计数,可以看到大部分数据的精度(精确到小数点后几位),为直方图的binwidth作参考。
##
## 3.8 3.9 4.2 4.4 4.5 4.6 4.7 4.8 4.9 5 5.1 5.2 5.3 5.4 5.5
## 1 1 2 3 1 1 5 9 7 24 23 28 27 28 31
## 5.6 5.7 5.8 5.9 6 6.1 6.15 6.2 6.3 6.4 6.45 6.5 6.6 6.7 6.8
## 71 88 121 103 184 155 2 192 188 280 1 225 290 236 308
## 6.9 7 7.1 7.15 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 8 8.1 8.2
## 241 232 200 2 206 178 194 123 153 93 93 74 80 56 56
## 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9 9.1 9.2 9.3 9.4 9.5 9.6 9.7
## 52 35 32 25 15 18 16 17 6 21 3 11 2 5 4
## 9.8 9.9 10 10.2 10.3 10.7 11.8 14.2
## 8 2 3 1 2 2 1 1
查看 fixed.acidity 的描述性统计,及其1%和99%的分位数
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.800 6.300 6.800 6.855 7.300 14.200
## 1% 99%
## 5.0 9.2
小结:
酒石酸(不易挥发酸),单位为g/dm^3,也就是每升含有多少克。
上图表明,此数据集中的大部分白葡萄酒的酒石酸含量在5到9之间,很少有超过10的,低于5的也很少。
后面可以看看这些极端值(大于10,或者小于4)对酒的评分影响。
为了了解fixed.acidity的分布情况,作出volatile.acidity 的直方图来观察。
这里,再来看看volatile.acidity的数值统计计数。
##
## 0.08 0.085 0.09 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14
## 4 1 1 6 6 13 3 34 3 44 1 56
## 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.2 0.205
## 4 88 5 141 2 140 1 177 5 170 214 4
## 0.21 0.215 0.22 0.225 0.23 0.235 0.24 0.245 0.25 0.255 0.26 0.265
## 191 1 229 4 216 4 253 4 231 10 240 5
## 0.27 0.275 0.28 0.285 0.29 0.295 0.3 0.305 0.31 0.315 0.32 0.325
## 218 3 263 5 160 3 198 4 148 4 182 2
## 0.33 0.335 0.34 0.345 0.35 0.355 0.36 0.365 0.37 0.375 0.38 0.385
## 134 7 135 9 86 1 104 2 65 2 63 2
## 0.39 0.395 0.4 0.405 0.41 0.415 0.42 0.425 0.43 0.435 0.44 0.445
## 61 2 59 1 54 4 36 2 35 2 46 4
## 0.45 0.455 0.46 0.47 0.475 0.48 0.485 0.49 0.495 0.5 0.51 0.52
## 25 2 30 15 3 17 3 14 2 14 10 10
## 0.53 0.54 0.545 0.55 0.555 0.56 0.57 0.58 0.585 0.59 0.595 0.6
## 8 10 1 14 2 9 4 7 2 4 2 7
## 0.61 0.615 0.62 0.63 0.64 0.65 0.655 0.66 0.67 0.68 0.685 0.69
## 7 4 5 2 7 2 3 4 5 3 1 2
## 0.695 0.705 0.71 0.73 0.74 0.75 0.76 0.78 0.785 0.815 0.85 0.905
## 3 2 1 1 1 1 2 1 1 1 1 1
## 0.91 0.93 0.965 1.005 1.1
## 1 1 1 1 1
查看 volatile.acidity 的描述性统计,还有1%和99%的分位数。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0800 0.2100 0.2600 0.2782 0.3200 1.1000
## 1% 99%
## 0.12 0.63
小结:
醋酸/乙酸(挥发性酸性),葡萄酒中醋酸的含量,单位为 g/dm^3。
根据上图和表格数据,可以看出此数据集中的大部分白葡萄酒的醋酸含量在0.1到0.6之间。
文档表明在过高的水平下会导致不愉快的醋味。即醋酸含量在过高情况下,评分可能会降低。
查看 citric.acid 的数据分布状况。
查看 citric.acid 的统计计数情况。
##
## 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.11 0.12 0.13 0.14
## 19 7 6 2 12 5 6 12 4 12 14 1 19 17 27
## 0.15 0.16 0.17 0.18 0.19 0.2 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29
## 23 33 27 49 48 70 66 104 83 181 136 219 216 282 223
## 0.3 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.4 0.41 0.42 0.43 0.44
## 307 200 257 183 225 137 177 134 122 101 117 82 95 37 63
## 0.45 0.46 0.47 0.48 0.49 0.5 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59
## 46 51 38 39 215 35 25 23 16 19 11 22 13 21 6
## 0.6 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69 0.7 0.71 0.72 0.73 0.74
## 6 9 14 4 6 8 7 7 7 5 3 9 5 5 41
## 0.78 0.79 0.8 0.81 0.82 0.86 0.88 0.91 0.99 1 1.23 1.66
## 2 2 2 2 2 1 1 2 1 5 1 1
查看 citric.acid 的部分描述性统计结果,1%和99%对应的分位数。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.2700 0.3200 0.3342 0.3900 1.6600
## 1% 99%
## 0.05 0.74
小结:
柠檬酸,单位为g/dm^3。
大部分处于0.1和0.7之间,最高为1.66,最低为0。
文档显示少量柠檬酸可以为葡萄酒添加“新鲜度”和风味,我理解为少许量的柠檬酸可以增加评分。
查看 residual.sugar 的数据分布情况。
发现residual.sugar是个右偏斜长尾数据,这里我将其进行对数转换后,再作直方图如下。
查看 residual.sugar 的部分描述性统计结果。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.600 1.700 5.200 6.391 9.900 65.800
## 1% 99%
## 0.9 18.8
查看 residual.sugar > 45 的行数据。
## fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
## 2782 7.8 0.965 0.6 65.8 0.074
## free.sulfur.dioxide total.sulfur.dioxide density pH sulphates
## 2782 8 160 1.03898 3.39 0.69
## alcohol quality
## 2782 11.7 6
小结:
剩余糖含量,单位为g/dm^3。
经过对数转换后,数据呈双峰分布。换句话说,大部分糖含量是处于这两个波峰附近的。
两个波峰对应的横轴坐标,一个大概为1.5,另一个大概为10.0。
文档表明,超过45克/升的葡萄酒被认为是甜的,不过通过上图,可以看出超过45克/升的葡萄酒很少,通过查询可知,只有一种葡萄酒剩余糖含量超过了45克/升。评分则为6分(满分10分),中规中矩。
查看 chlorides 的数据分布。
查看 chlorides 的值统计计数。
##
## 0.009 0.012 0.013 0.014 0.015 0.016 0.017 0.018 0.019 0.02 0.021 0.022
## 1 1 1 4 4 5 5 10 9 16 19 19
## 0.023 0.024 0.025 0.026 0.027 0.028 0.029 0.03 0.031 0.032 0.033 0.034
## 20 34 30 54 58 85 81 108 107 109 119 168
## 0.035 0.036 0.037 0.038 0.039 0.04 0.041 0.042 0.043 0.044 0.045 0.046
## 130 200 160 167 157 182 147 184 141 201 170 181
## 0.047 0.048 0.049 0.05 0.051 0.052 0.053 0.054 0.055 0.056 0.057 0.058
## 171 174 133 170 115 104 130 99 61 88 68 53
## 0.059 0.06 0.061 0.062 0.063 0.064 0.065 0.066 0.067 0.068 0.069 0.07
## 36 46 19 25 23 15 8 18 18 7 18 6
## 0.071 0.072 0.073 0.074 0.075 0.076 0.077 0.078 0.079 0.08 0.081 0.082
## 5 2 5 8 2 9 1 2 4 4 2 2
## 0.083 0.084 0.085 0.086 0.087 0.088 0.089 0.09 0.091 0.092 0.093 0.094
## 5 5 3 4 3 2 1 2 1 3 3 5
## 0.095 0.096 0.097 0.098 0.099 0.102 0.104 0.105 0.108 0.11 0.112 0.114
## 2 6 1 3 1 1 1 1 2 3 1 1
## 0.115 0.117 0.118 0.119 0.12 0.121 0.122 0.123 0.126 0.127 0.13 0.132
## 1 3 1 3 1 2 1 4 3 2 1 1
## 0.133 0.135 0.136 0.137 0.138 0.142 0.144 0.145 0.146 0.147 0.148 0.149
## 1 1 1 2 2 3 1 1 1 2 1 1
## 0.15 0.152 0.154 0.156 0.157 0.158 0.16 0.167 0.168 0.169 0.17 0.171
## 1 2 1 1 4 1 2 2 3 2 2 1
## 0.172 0.173 0.174 0.175 0.176 0.179 0.18 0.184 0.185 0.186 0.194 0.197
## 2 2 2 2 2 1 1 2 2 1 1 2
## 0.2 0.201 0.204 0.208 0.209 0.211 0.212 0.217 0.239 0.24 0.244 0.255
## 1 2 1 2 1 1 1 1 1 1 1 1
## 0.271 0.29 0.301 0.346
## 1 1 1 1
查看 chlorides 部分描述统结果。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00900 0.03600 0.04300 0.04577 0.05000 0.34600
## 1% 99%
## 0.02 0.16
小结:
葡萄酒中的氯化物含量,文档中指代的是盐(氯化钠),单位为g/dm^3。
大部分位于0.01到0.1之间。
对x轴进行log10转换后 chlorides的直方图。
查看 free.sulfur.dioxide 的分布情况。
这里由于数据是集中于0到100之间的,在0到100之间,设置数值间隔25为一个刻度。
查看 free.sulfur.dioxide 的值统计计数情况。
##
## 2 3 4 5 6 7 8 9 10 11 11.5 12
## 1 10 11 25 32 25 35 29 55 45 1 51
## 13 14 15 15.5 16 17 18 19 19.5 20 21 22
## 55 68 79 1 58 89 80 84 1 101 93 102
## 23 23.5 24 25 26 27 28 28.5 29 30 30.5 31
## 110 1 118 111 129 99 112 1 160 99 1 132
## 32 33 34 35 35.5 36 37 38 38.5 39 39.5 40
## 109 112 128 129 2 127 111 102 1 89 1 103
## 40.5 41 41.5 42 42.5 43 43.5 44 44.5 45 46 47
## 1 104 2 86 1 63 1 75 4 101 64 91
## 48 48.5 49 50 50.5 51 51.5 52 52.5 53 54 55
## 66 7 82 64 2 54 1 72 4 68 61 58
## 56 57 58 59 59.5 60 60.5 61 61.5 62 63 64
## 42 44 37 39 2 38 2 47 1 29 30 23
## 64.5 65 66 67 68 69 70 70.5 71 72 73 73.5
## 1 14 17 22 24 17 11 1 5 6 8 4
## 74 75 76 77 77.5 78 79 79.5 80 81 82 82.5
## 5 7 5 5 1 4 2 4 1 7 2 1
## 83 85 86 87 88 89 93 95 96 97 98 101
## 4 2 2 4 1 1 1 1 3 1 3 2
## 105 108 110 112 118.5 122.5 124 128 131 138.5 146.5 289
## 2 3 1 1 1 1 1 1 1 1 1 1
查看 free.sulfur.dioxide 的部分描述性统计结果。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.00 23.00 34.00 35.31 46.00 289.00
## 1% 99%
## 6 81
小结:
游离二氧化硫,单位为mg/dm^3(每升多少毫克)。
大部分处于0到75之间。
二氧化硫的自由形式存在于分子SO2(即溶解气体)和亚硫酸氢离子之间的平衡中,它阻止了微生物的生长和葡萄酒的氧化。
绘制 total.sulfur.dioxide 的直方图。
查看 total.sulfur.dioxide 的部分描述性统计结果。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.0 108.0 134.0 138.4 167.0 440.0
## 1% 99%
## 50.97 241.03
小结:
总二氧化硫的含量,单位为g/cm^3(每毫升多少克)。
大部分位于50与250之间。
文档显示,在低浓度的情况下,二氧化硫在葡萄酒中几乎是无法检测到的,但在游离的二氧化硫浓度超过50 ppm时,二氧化硫在鼻子和葡萄酒的味道中变得明显。
查看 density 的数据分布情况。
查看 density 的部分描述性统计结果。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9871 0.9917 0.9937 0.9940 0.9961 1.0390
## 1% 99%
## 0.9887794 1.0003021
小结:
葡萄酒的密度,单位为g/cm^3。
取决于酒精和糖的含量。
大部分处于0.99到1.00之间。
查看 pH 的数据分布,这里选取直方图。
查看 pH 的部分描述性统计结果。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.720 3.090 3.180 3.188 3.280 3.820
## 1% 99%
## 2.88 3.60
小结:
描述酒的酸碱性,pH值
大部分处于2.9到3.5之间
查看 sulphates 的数据分布情况。
查看 sulphates 数据的部分描述性统计结果。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2200 0.4100 0.4700 0.4898 0.5500 1.0800
## 1% 99%
## 0.29 0.83
小结:
硫酸盐的含量,单位为g/dm3。
文档显示,这里的硫酸盐具体为硫酸钾,能促进二氧化硫气体(S02)水平的葡萄酒添加剂,可作为一种抗菌剂和抗氧化剂。
大部分位于0.3到0.38之间。
查看 alcohol 的数据分布情况。
查看 alcohol 的部分描述性统计结果。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.00 9.50 10.40 10.51 11.40 14.20
## 1% 99%
## 8.7 13.4
小结:
酒精含量,单位为体积百分比。
大部分处于9到13之间。
查看 quality 的分布。
查看 quality的统计计数以及部分描述性统计结果。
##
## 3 4 5 6 7 8 9
## 20 163 1457 2198 880 175 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 5.000 6.000 5.878 6.000 9.000
## 1% 99%
## 4 8
小结:
质量得分,或者说是评分,得分在0到10之间,为整型变量。
本数据集中,最高得分为9分,不过只有5个。大多数评分是5,6,7,其中6分占比最多。
法2,聚合某些数值,将聚合后的数值再次划分为分类变量,比如6分以下,为次品酒,6分和7分则为中等酒。7分以上,酒的品味则为上佳。最终存储为class列。
这里,我按照这两种方式,将quality这列变量转为因子变量。
预览处理后的数据。
## 'data.frame': 4898 obs. of 14 variables:
## $ fixed.acidity : num 7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
## $ volatile.acidity : num 0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
## $ citric.acid : num 0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
## $ residual.sugar : num 20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
## $ chlorides : num 0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
## $ free.sulfur.dioxide : num 45 14 30 47 47 30 30 45 14 28 ...
## $ total.sulfur.dioxide: num 170 132 97 186 186 97 136 170 132 129 ...
## $ density : num 1.001 0.994 0.995 0.996 0.996 ...
## $ pH : num 3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
## $ sulphates : num 0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
## $ alcohol : num 8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
## $ quality : int 6 6 6 6 6 6 6 6 6 6 ...
## $ score : Ord.factor w/ 7 levels "3"<"4"<"5"<"6"<..: 4 4 4 4 4 4 4 4 4 4 ...
## $ class : Ord.factor w/ 3 levels "Poor"<"Medium"<..: 2 2 2 2 2 2 2 2 2 2 ...
本数据集,共有4898个观测值,共有13个变量(注意X变量是一个行数标识符,为int类型),具体如下所示
## 'data.frame': 4898 obs. of 14 variables:
## $ fixed.acidity : num 7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
## $ volatile.acidity : num 0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
## $ citric.acid : num 0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
## $ residual.sugar : num 20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
## $ chlorides : num 0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
## $ free.sulfur.dioxide : num 45 14 30 47 47 30 30 45 14 28 ...
## $ total.sulfur.dioxide: num 170 132 97 186 186 97 136 170 132 129 ...
## $ density : num 1.001 0.994 0.995 0.996 0.996 ...
## $ pH : num 3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
## $ sulphates : num 0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
## $ alcohol : num 8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
## $ quality : int 6 6 6 6 6 6 6 6 6 6 ...
## $ score : Ord.factor w/ 7 levels "3"<"4"<"5"<"6"<..: 4 4 4 4 4 4 4 4 4 4 ...
## $ class : Ord.factor w/ 3 levels "Poor"<"Medium"<..: 2 2 2 2 2 2 2 2 2 2 ...
我所感兴趣的是哪些特征影响到了最终的人员评分(quality), 通对文档的理解,过高的volatile.acidity水平下会导致不愉快的醋味,会降低评分。 一定量的柠檬酸(citric.acid)可以为葡萄酒添加“新鲜度”和风味,会增加评分。
通过以上绘图,我发现,density,residual.sugar和alcohol的分布不大对称,这说明,数据集中的白酒在此两个指标上是存在某些差异的。density,residual.sugar和alcohol也纳入主要特征进行考量。
其他的一些变量,比如与二氧化硫相关的一些变量(比如free.sulfur.dioxide,total.sulfur.dioxide),也可能对评分有影响。 具体对评分的影响如何,还需经过后面的分析发掘。
目前创建了两个新变量,分别是score和class,score是对quality转为因子变量的列,而class,则是将quality划分为三个区间,分别是小于6,等于6或者7,大于7,将对应的三个区间转为因子即得class。
对于residual.sugar数据,分布呈现长尾右偏斜,所以这里,我对其进行了对数转换,再次作出直方图,分布呈现双峰形状,两峰值大概分别对应1.5,10.0。从residual.sugar数据来看,有较多的酒是分布在1.5和10.0附近的。
## [1] "fixed.acidity" "volatile.acidity" "citric.acid"
## [4] "residual.sugar" "chlorides" "free.sulfur.dioxide"
## [7] "total.sulfur.dioxide" "density" "pH"
## [10] "sulphates" "alcohol" "quality"
## [13] "score" "class"
绘制矩阵散点图
对于连续变量,我这里绘制其散点图和其趋势线,位于下三角区域。
对于因子变量,这里选择箱线图来表示,位于上三角区域。
## Time difference of 120.321 secs
下面,来看看score与alcohol之间的散点图
上述散点图相互覆盖,且score是连续的整型分类变量,这里,为了让其显示出连续,将散点图调为抖动,再来观察 这里将散点抖动图的相对抖动宽度设为0.5,这样,就感觉评分间是平滑过渡的。
这里将散点抖动图,抖动的相对宽度采用默认设置, 再在上面添加一个箱线图图层,同时将箱体透明度设置为0.1,这样可以看到落入其中的散点。 再对每个score添加一个均值统计量,标记方式为一个红色的圆点。 最后添加一个趋势线,方法使用线性回归,来观察散点趋势。
看看score的统计计数情况。
##
## 3 4 5 6 7 8 9
## 20 163 1457 2198 880 175 5
很明显可以看出,score 与 alcohol 呈现较强的正相关性。
查看 score 与density 的关系图,同样采用之前的方式:散点抖动图,箱线图,均值统计量,趋势线。
由于density有较少的极值,导致上述图形看起来,在竖直方向存在较多空区域,调整纵轴取值后。如下
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9871 0.9917 0.9937 0.9940 0.9961 1.0390
调整 y方向的限制为 0.9871到1.005,效果如下。
可以看出,密度与score之间呈负相关性。
密度这一变量是由其他变量决定的,比如,alcohol与密度呈负相关(相关系数为-0.78),而alcohol与score是呈正相关的,这也间接说明了,密度与score之间呈负相关。
查看 score 与 fixed.acidity 之间的关系图。方法同上。
根据上图,似乎score为4,5,6,7,8时,对应的fixed.acidity的中位数差不多。也就是说,fixed.acidity不大能预测score。
放大看试试,这里将y方向限制在5到10之间。
换成class,来查看,也能看出,fixed.acidity不大能预测classs。
上述两幅图也表明各个种类酒在fixed.acidity 的品控方面相差无几。
观察 quality 与 volatile.acidity 之间的关系,这里取消掉趋势线,其他如之前操作。
文档中提到过,葡萄酒中醋酸的含量,在过高的水平下会导致不愉快的醋味。可以通过查看各个的极值,来验证这一说法。在上图7个分类中,score 分别等于 4,5,6,7,8,9 时,可以看到对应酒的极值(最大异常值)均在变小。
再来看看class,是否有不一样的结果。
上图可看出,中等酒的volatile.acidity更低些。下等酒的volatile.acidity更高。上等酒的volatile.acidity则稍高于中等酒。
文档中提到了一定量的柠檬酸能促进酒的风味。
查看 quality 与 citric.acid 之间的关系,这里通关散点图外加一条拟合曲线展示,拟合方式选取的auto。
放大上图部分,取中间98%数据(首尾各去除1%)观察。即得下图,可以看出,柠檬酸含量大致在0.3(单位为克/升)的时候,评分较高。
使用分面图,看能否得到评分较高的酒与评分较低的酒之间的柠檬酸含量是不是不同。
再次通过之前方法查看 score 与 citric.acid 之间关系。
查看score统计计数
##
## 3 4 5 6 7 8 9
## 20 163 1457 2198 880 175 5
小结:
文档中,提到过,一定量的柠檬酸可以为葡萄酒添加“新鲜度”和风味。通过上图,大致能看出,大部分酒的柠檬酸含量是在0.25 和 0.35之间,大致可以认为,柠檬酸含量在0.25和0.35之间时,风味会更好。
虽然score = 9的中位数和均值明显高于其他分类,但是,这里由于score=9的数量太少(只有5个),不能得出柠檬酸含量接近0.4时,风味会更好,进而评分会更高。
同时,评分较高的酒,可以看出,其区间更小,从4分到8分,箱线图的‘箱’在逐步的变小。score = 9数据量少,不算其中。
注意:以上柠檬酸数值单位为克/升。
再来看看class 与 citric.acid 间关系。
可以看出,等级越高的酒,箱体越窄,说明品质越高的酒,它们的citric.acid含量波动越小,较为固定,也可以说明品控把握良好。
查看 score 与 pH之间关系,方法如之前所示。
再查看 class 与 pH关系。
可以看出,pH与得分是呈较弱的正相关的。
查看 score 与 chlorides 之间关系。
放大局部看看
查看 class 与 chlorides 之间关系。
可以看出,score 以及class 与 chlorides呈负相关。
查看 score 与 residual.sugar 之间关系。
查看 class 与 residual.sugar 之间关系。
上面可以看出,score和class与residual.sugar呈弱负相关,且酒的等级越高,箱线图中的‘箱体越窄’,也可从某个角度说,对于residual.sugar的品控把握越好。
查看 score 与 total.sulfur.dioxide 之间关系。
查看 class 与 total.sulfur.dioxide 之间关系。
可以看出,score,class 与 free.sulfur.dioxide呈较弱的负相关性。
查看 score 与 free.sulfur.dioxide 之间关系。
查看 class 与 free.sulfur.dioxide 之间关系。
可以看出,score,class与free.sulfur.dioxide几乎不相关。
查看 score 与 sulphates 之间关系。
查看 class 与 sulphates 之间关系。
可以看出,score,class 与 sulphates 呈较弱的正相关。
查看 alcohol 与 density 之间关系,这里两者都是数值变量,选取散点图,设置透明度为0.2。
同时,x方向,剔除density中1%之前的数据和99%之后的数据,最后,加上一条拟合曲线,拟合方法选取为auto。
可以看出,酒精与密度之间是呈较强的负相关的。
依据上面的方法,作出 residual.sugar 与 density 之间的散点图,如下。
可以看出,residual.sugar 与 density 呈正相关。
作出 free.sulfur.dioxide 与 total.sulfur.dioxide 之间的散点图,这里,限制x轴为0到300,y轴为0到150。
x轴范围在0到250这一段,可以看出,free.sulfur.dioxide 与 total.sulfur.dioxide 之间呈正相关。
再来看看 fixed.acidity 与 pH 之间的关系。可以看到呈较弱的负相关性。
这里关注下 quality 与其他变量的关系
一般情况来说,品质较好的酒,品控也是较好的,反映在理化性质上,就是用料的区别,如果某个用料种类一样,那么唯一的区别就在于该用料的含量上了,品控更好,或者可以说,这个用料含量的范围更窄,更精准。通过以上作图,这里是以箱线图来表示的,我们可以看出,某些用料(citric.acid,residual.sugar,free.sulfur.dioxide),随着等级的提升,箱体确实是越来越窄的,说明对这些用料的控制,一定程度上决定了酒的品质。
这里挑出与quality相关性系数绝对值超过0.15的变量,并列出其相关性大小。
quality 与 alcohol,相关系数为 0.44,score 与 alcohol 呈现较强的正相关性。
quality 与 density,相关系数为-0.31。
quality 与 chlorides,相关系数为-0.21。
quality 与 volatile.acidity,相关系数为-0.19。
quality 与 total.sulfur.dioxide,相关系数为-0.17。
两个主要变量与密度之间的相关性。 alcohol 与 density
相关系数为-0.78,呈强负相关。这个很好理解,这里alcohol描述的是酒精体积占比。我们知道,通常情况下,酒精的密度是小于水的。那么酒精占比越大,酒的密度就越小。
residual.sugar 与 density
相关系数为0.84,呈强正相关。这个可以跟上述一样理解。糖的密度大于水,溶解于水中,那么随着糖分的增加,势必会引起水的密度增加。
其他变量与密度相关性如下:
total.sulfur.dioxide 与 density相关系数为0.53,呈中等正相关。
free.sulfur.dioxide 与 density相关系数为0.29,呈弱正相关。
quality 与 density相关系数为-0.31,呈弱负相关。
fixed.acidity 与 density相关系数为0.27,呈弱正相关。
chlorides 与 density相关系数为0.26,呈弱正相关。
free.sulfur.dioxide 与 total.sulfur.dioxide * 两者正相关,相关系数为0.62。
fixed.acidity 与 pH * 两者相关性高达-0.43,说明了酒的酸性主要是取决于fixed.acidity,也就是不易挥发性酸,酒石酸。
在单变量分析中所提到的主要特征,一共5个。
volatile.acidity,易挥发性酸,醋酸,score 分别等于 4,5,6,7,8,9 时,可以看到对应酒的极值(最大异常值)均在变小。
alcohol,score 与 alcohol的皮尔逊相关系数为0.44,呈现较强的正相关性。
density,score 与 alcohol的 皮尔逊相关系数为-0.31,呈现中等负相关。密度这一变量是由其他变量决定的,比如,alcohol与密度呈负相关(相关系数为-0.78),而alcohol与score是呈正相关的,这也间接说明了,密度与score之间呈负相关。其他变量与密度之间的相关性,见上题描述。
residual.sugar, score 与 residual.sugar的皮尔逊相关系数为-0.1,呈微弱负相关,且酒的等级越高,箱线图中的‘箱体越窄’,也可从某个角度说,对于residual.sugar的品控把握越好。
通过相关性分析,发现最强的关系是 residual.sugar 与 density,两者皮尔逊相关系数高达 0.84.
为了获取 volatile.acidity 与 alcohol 之间的相互作用对 score是否有影响。 这里绘制 volatile.acidity 与 alcohol 之间散点图,同时,点的颜色由该数据点对应的score来表示。
从上图大致可以看出,评分较高的酒,酒精度数大概在12到14之间,挥发性酸大概在0.1到0.4之间; 评分较低的酒,酒精度数大概在9到11之间,挥发性酸大概在0.3到0.6之间。
为了获取 volatile.acidity 与 alcohol 之间的相互作用对 class是否有影响。 这里绘制 volatile.acidity 与 alcohol 之间散点图,同时,点的颜色由该数据点对应的class来表示。
## $title
## [1] "alcohol by volatile.acidity and class"
##
## $subtitle
## NULL
##
## attr(,"class")
## [1] "labels"
上图可以看出, 上等酒的酒精度数较高,下等酒的酒精度数较低。而从挥发性酸这一维度上观察,中等酒与上等酒大致在0.1到0.4之间,下等酒的区域更为宽广,大致在0.2到0.6之间。
为了获取 citric.acid 与 density 之间的相互作用对 score 是否有影响。 这里绘制 citric.acid 与 density 之间散点图,同时,点的颜色由该数据点对应的score来表示。
上图可以看出,打分较高的酒,密度大致在0.99至0.995之间,柠檬酸大致在0.2至0.5之间。 打分较低的酒,密度大致在0.9925至1.000之间,柠檬酸大致在0.1至0.6之间。
这里,再分析两者对class的交互作用。
上图可以看出,从柠檬酸维度观察,poor酒的柠檬酸取值范围更广,Medium酒范围较窄,Ideal范围似乎比Medium宽些,但要小于poor。 从密度维度考察,poor密度更大,Medium较小,Ideal更小。
为了获取 residual.sugar 与 density 之间的相互作用对 score 是否有影响。 这里绘制 residual.sugar 与 density 之间散点图,同时,点的颜色由该数据点对应的score来表示。
首先可看出,密度与剩余糖含量呈正相关。再来看评分,固定某一residual.sugar,可以看出,评分较高的酒密度更小。固定某一密度,当密度小于0.995时,各个评分在糖含量分布上,7,8分对应的剩余糖含量要高于低分数。当密度大于0.995时,3,4分对应的糖含量较低,5,6分对应的糖含量较高,其他评分对应的糖含量居中。
为了获取 residual.sugar 与 density 之间的相互作用对 class 是否有影响。 这里绘制 residual.sugar 与 density 之间散点图,同时,点的颜色由该数据点对应的class来表示。
密度上考量,poor酒密度更大,Medium酒密度居中,Ideal酒密度较小。 剩余糖含量上考量,Medium和Ideal两者相当且范围更广,Poor的范围更窄。
为了获取 volatile.acidity 与 citric.acid 之间的相互作用对 score 是否有影响。 这里绘制 volatile.acidity 与 citric.acid 之间散点图,同时,点的颜色由该数据点对应的score来表示。
放大局部看,这里x,y方向,均限制为0到0.8之间。
高评分的柠檬酸含量集中于0.3附近,挥发性酸集中于0.1到0.4之间,下图也可印证。
存在相互促进的特性,当各个特性处于某个特定范围时,将相互加强,如下 评分较高的酒,酒精度数大概在12到14之间,挥发性酸大概在0.2到0.4之间; 评分较低的酒,酒精度数大概在9到11之间,挥发性酸大概在0.3到0.6之间。
好的品味,源于特定的搭配配比。评分是由专业人士来打分的,他们是通过感官来感受的,也就是看,闻,尝。三种体验之中,我认为后两者更为重要,如果好看的酒,不好喝,也就是好看罢了,评分不会太高,因为酒是用来喝的,不是一种观赏品。那么,剩下的就是味觉刺激了,通过以上观察发现,评分较高的酒,他们在某些方面是相似的,比如,酒精度数偏高,挥发性酸大致在0.1到0.4的范围内,柠檬酸含量不能太低,也不能太高,在0.2到0.5范围内较多。
这里并没有创建模型。
上图是对residual.sugar经过对数转换后所作的直方图。数据呈双峰分布,换句话说,大部分糖含量是处于这两个波峰附近的.两个波峰对应的横轴坐标,一个大概为1.5,另一个大概为10.0。
文档中,提到过,一定量的柠檬酸可以为葡萄酒添加“新鲜度”和风味。通过上图,大致能看出,大部分酒的柠檬酸含量是在0.25 和 0.35之间,大致可以认为,柠檬酸含量在0.25和0.35之间时,风味会更好。
虽然score = 9的中位数和均值明显高于其他分类,但是,这里由于score=9的数量太少(只有5个),不能得出柠檬酸含量接近0.4时,风味会更好,进而评分会更高。
同时,评分较高的酒,可以看出,其区间更小,从4分到8分,箱线图的‘箱’在逐步的变小(score = 9数据量少,不算其中)。也说明高评分的酒对柠檬酸的要求更为严格。
注意:以上柠檬酸数值单位为克/升。
从上图大致可以看出,评分较高的酒,酒精度数大概在12到14之间,挥发性酸大概在0.1到0.4之间; 评分较低的酒,酒精度数大概在9到11之间,挥发性酸大概在0.3到0.6之间。
遇到的难点:
思路历程
我首先查看了参考文档,了解到每个变量的含义,比如,固定酸,文档中特指是酒石酸,挥发性酸,文档中特指是醋酸。思考他们之间的关系,从中选出几个感兴趣的变量,比如,柠檬酸含量,少许的柠檬酸会增加酒风味,而二氧化硫含量高达某个值会有明显的刺激性气味,我将其纳入主要特征。
再通过单变量分析,又纳入了三个变量,分别是密度,酒精和残余糖。
之后通过双变量分析,对其与评分作出散点图进行考察,分析其相关性。
最后通过多变量分析,这里通过考察某两个感兴趣的变量。再将评分作为第三维度的变量,使用颜色来区分。最终发现了上面所提到的关系。
提升